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HE: 


[ 目的 ] 对 引文 摘要 领域 的 国外 主流 研究 方法 和 步骤 进行 综述 分 析 。[ 文献 范围 ] 选取 2007 年 以 来 引文 


摘要 领域 的 重要 研究 及 此 前 自动 摘要 、 引 文 分 析 领 域 的 研究 进展 。[ 方法 ] 基于 文献 调研 , 介绍 该 领域 的 基本 概 
念 以 及 自然 语言 处 理 的 方法 在 引文 摘要 中 的 应 用 。[ 结果 ] 引文 句 在 摘要 实践 中 起 到 重要 的 概括 作用 、 指 示 作 用 
和 关联 作用 , 具有 一 定 的 优越 性 。[ 局 限 ] 缺乏 对 引文 摘要 领域 现 有 成 果 和 可 能 达成 的 理想 情况 的 比较 。[ 结论 ] 
引文 摘要 拓展 了 自动 摘要 和 传统 的 信息 计量 学 的 研究 方向 ,并 对 改进 自动 摘要 原 有 的 评估 方案 提出 要 求 ， 同 时 
产生 了 有 关 引 文 窗口 扩展 、 语 料 库 构建 等 一 系列 新 闻 题 。 本 文 对 这 些 问题 进行 探讨 ， 并 对 引文 摘要 未 来 的 研究 


发 展 进行 展望 。 


关键 词 : 自动 摘要 引文 摘要 引文 句 ”上 自然 语言 处 理 


分 类 号 : G350 


1 引 Ë 


自动 摘要 是 自然 语言 处 理 的 重要 研究 课题 之 一 ， 
长 期 以 来 ,其 研究 主要 关注 基于 正文 文本 信息 的 摘要 
生成 技术 和 方法 。 完 全 基于 正文 的 摘要 (包括 作者 摘要 ) 
虽然 能 够 较 好 地 反映 原文 内 容 , 但 在 对 原文 影响 力 的 
概括 能 力 上 则 比较 有 限 ， 更 无 法 反映 文献 影响 力 的 历 
时 性 变化 口 。 

引用 (被 引用 ) 关 系 是 学 术 文献 之 间 最 有 研究 价值 
的 关联 关系 之 一 , 可 看 作 是 从 其 他 学 者 视角 对 被 引文 
献 内 容 的 一 种 概括 或 解读 ， 进 而 体现 被 引文 献 对 其 他 
研究 的 学 术 影响 或 价值 。 因 此 , 借鉴 文献 计量 学 中 的 
引文 分 析 思 想 , 开展 基于 引文 信息 的 摘要 研究 (简称 
所 | 文摘 要 ”) 逐 渐 成 为 目 动 摘 要 领域 最 近 10 年 来 一 个 
新 的 探索 方向 。 

目前 , 引文 摘要 研究 的 基本 思路 可 以 概括 为 : 搜 
寻 目 标 文 献 的 所 有 施 引 文献 的 全 文 ,以 获取 全 文中 对 
目标 文献 引用 标注 所 在 的 所 有 句子 或 其 他 相关 信息 ， 
将 其 看 作 一 个 集合 ,然后 从 这 个 集合 中 选取 一 个 子 集 


加 工 、 生 成 目标 文献 的 摘要 ,并 保证 这 个 子 集 具 有 足 
够 的 压缩 率 和 较 好 的 概括 能 力 。 为 此 , 它 的 研究 步 又 
(或 关键 问题 ) 主 要 包括 : 选择 合适 的 、 可 获取 全 文 的 语 
THE; 引文 句 ( 域 ) 识 别 与 摘 取 ; 引文 类 型 和 引文 目的 
识别 ,对 引文 名 进行 分 类 和 筛选 ; 引文 句 的 组 织 和 排 
FF, 形成 引文 摘要 (初稿 ); 摘要 后 处 理 ; 摘要 评估 。 
自动 摘要 原本 就 被 广泛 应 用 于 信息 检索 。Bradshaw 
认为 引用 关系 可 以 用 于 学 术 检 索 效 果 的 改进 ,这 反映 
了 引文 摘要 的 优越 性 握 。 此 外 , 研究 表明 对 于 高 被 引文 
献 来 说 ,， 引 文摘 要 更 具 容 观 性 和 多 样 性 中， 并 在 揭示 
目标 文献 信息 方面 具有 明显 的 优越 性 I。 此 外 , 与 基 
于 正文 的 摘要 方法 相 比 ,引文 摘要 不 仅 在 内 容 上 比 原 
文句 子 更 具 概 括 性 ,由 于 经 过 了 一 轮 人 工 的 分 析 , 还 
具有 一 定 的 评论 性 和 延伸 性 , 能够 更 好 地 反映 出 原文 
中 有 重要 意义 的 部 分 。 
EKE, 引文 摘要 研究 的 兴起 ， 主 要 得 益 于 全 文 
语 料 的 日 益 普 及 和 自然 语言 理解 技术 的 进步 ， 同 时 ， 
也 可 将 其 视 为 引文 语 境 分 析 (Citation Context Analysis) 
技术 的 一 类 重要 应 用 。 自 2008 年 Qazvinian 等 首次 开 
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展 引文 摘要 试验 研究 以 来 由， 这 一 “自动 摘要 ”与 “引文 
分 析 ” 相 互 交 叉 融 合 发 展 起 来 的 新 研究 方向 不 仅 得 到 
了 学 者 的 广泛 关注 , 而 且 取 得 了 显著 的 研究 进展 , 并 
已 从 初期 过 于 偏重 对 文献 计量 学 及 引文 分 析 方 法 的 借 
鉴 应 用 , 逐步 转向 于 更 多 关注 自然 语言 处 理 技术 、 特 
别 是 文本 语义 与 情感 分 析 等 新 技术 的 应 用 。 不 过 , 受 
限于 低 被 引文 献 引 文 语 料 信 息 的 匮乏 , 以 及 结构 化 全 
文 语 料 广泛 获取 的 相对 困难 性 (医学 领域 除外 )， 对 引 
文摘 要 技术 方法 更 深入 的 研究 、 推 广 及 应 用 还 存在 较 
大 的 拓展 空间 。 

在 Web of Knowledge 平台 上 以 检索 式 TI = 
(citation* OR reference* OR bibliography) AND TI = 


(summar* OR survey OR extract* OR abstracb) 进 行 检索 ， 


并 针对 研究 方向 进行 精炼 , 得 到 2007 年 -2015 年 的 文 
献 300 余 篇 , 数量 较 少 , 其 中 与 引文 摘要 直接 相关 的 
更 仅 有 数 十 篇 。 可 以 看 出 针对 引文 摘要 的 学 术 研 究 尚 
处 于 起 步 阶段 。 国 内 针对 自动 摘要 领域 的 研究 比较 有 
IRI, RHEI CNKI、 万 方 等 数据 库 的 检索 结果 来 看 ， 
国内 对 引文 摘要 领域 的 研究 几乎 是 一 片 空 白 。 本 文通 
过 较 全 面 的 文献 调研 ,尝试 从 ( 单 文档 ) 引 文摘 要 研究 
的 关键 步骤 入 手 , 对 这 一 新 兴 人 研究 课题 的 国外 研究 进 
展 进行 较为 系统 的 分 析 评 述 , 并 针对 一 些 基 本 概念 加 
以 厘清 ， 以 期 为 国内 引文 摘要 研究 的 深入 发 展 提供 必 
要 的 借鉴 和 启迪 。 


2 引文 域 识 别 和 引文 窗口 扩充 


引文 摘要 研究 主要 建立 在 对 文献 引用 与 被 引用 关 
系 中 列 含 的 主题 相关 性 及 价值 进行 挖掘 利用 的 认 知 基 
mh E, 因此 引文 域 识 别 与 提取 不 仅 是 其 研究 中 的 关键 
步骤 之 一 , 也 是 首先 面临 并 需 妥 善 解决 的 一 个 问题 , 它 
对 后 续 步 又 的 实施 及 摘要 生成 具有 重要 的 支撑 作用 。 

早 在 2004 年 ，Nakov 等 就 提出 “Citance”( 即 
Citation Sentence, 引文 句 ) 这 一 新 术语 中 意 指 施 引 文 
献 中 围绕 在 引用 标记 (符号 ) 周 围 的 句子 。 狭 义 的 “引文 
名 ?可 理解 为 引用 标记 所 在 的 句子 本 身 , 广义 理解 可 
扩展 为 引用 标记 所 在 句子 及 其 周围 信息 , 也 即 引文 上 
下 文 (Citation Context) 或 引文 语 境 信息 。 通 常情 况 下 ， 
引文 域 可 以 看 成 施 引 文献 中 论 及 被 引文 献 的 语 段 ， 并 
且 这 种 论述 应 该 是 比较 明确 的 、 有 意义 的 , 同时 具有 
可 以 识别 的 边界 或 阔 值 。 引 文 域 的 范围 ， 可 称 之 为 “ 引 
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文 窗口 ”(Citation Window). 

在 早期 的 研究 中 , 引文 域 的 识别 和 抽取 多 基于 狭 
义 的 理解 , 一 般 通 过 对 特征 边界 的 识别 直接 对 引用 标 
记 所 在 的 句子 本 身 进行 抽取 。 例如 , Nanba 等 通过 人 工 
方式 ， 先 期 得 到 了 与 引文 域 识别 相关 的 86 个 线索 词 ， 
并 据 此 完成 引文 域 的 提取 任务 中 。 近 年 来 更 常见 的 
方法 是 使 用 正则 表达 式 来 描述 各 种 引用 方式 的 模式 。 
最 近 , 研究 人 员 则 开始 采用 扩充 引文 窗口 的 方法 提取 
相关 信息 ， 即 尝试 利用 引文 句 附 近 , 或 者 其 他 语义 上 相 
接近 的 句子 , 以 有 效 提高 用 于 引文 摘要 信息 的 丰富 度 。 

引文 窗口 的 扩充 对 了 解 论文 引证 中 的 引文 习惯 、 
引文 原因 以 及 文献 信息 流向 特点 等 具有 重要 意义 1。 
目前 , 引文 窗口 扩充 (或 扩展 ) 的 常用 方法 主要 有 两 种 : 
基于 距离 扩展 和 基于 相似 关系 扩展 。 其 中 ,基于 距离 
的 扩展 方法 较为 简单 , 一般 可 通过 计算 其 他 句子 与 引 
文句 的 物理 距离 来 给 它们 赋予 不 同 的 权重 ， 从 而 考虑 
是 否 将 其 纳入 到 引文 域 中 忠 ; 或 者 是 ， 直接 指定 引文 
窗口 中 可 包含 的 具体 句子 (或 段落 ) 的 数目 。 而 基于 相 
似 关系 的 扩展 方法 则 相对 复杂 ,， 它 致力 于 将 与 引文 名 
语义 相关 性 较 高 的 语句 信息 (在 位 置 上 并 不 一 定 相 邻 ) 
识别 出 来 并 纳入 到 引文 域 中 , 这 种 方法 尤其 适用 于 
“ 隐 式 引用 ”(Implicit Citation) hé. an, KERK 
献 中 对 所 引用 文献 采用 哈佛 体系 进行 著录 或 标记 时 ， 
往往 就 会 产生 或 带 来 较 多 的 隐 式 引用 。 对 此 , Athar 等 的 
研究 认为 ， 隐 式 引用 往往 包含 更 加 丰富 的 语义 信息 , 并 
有 较 大 的 利用 价值 0n3， 有 必要 将 其 扩充 到 引文 窗口 中 。 

引文 域 的 摘 取 质量 直接 决定 引文 摘要 的 质量 。 目 
前 ,引文 域 的 识别 在 技术 上 主要 建立 在 对 引用 的 边界 
特征 的 提取 上 ; 而 引文 窗口 的 扩充 , 则 更 多 依赖 于 对 
自然 语言 文本 的 语词 特征 和 语义 特征 的 分 析 理解 技术 ， 
未 来 还 存在 较 大 的 改进 余地 或 优化 空间 ,尤其 是 针对 
引文 域 中 句子 的 主题 、 观 点 识别 等 问题 ,尽管 目前 还 
少 有 研究 将 其 与 引文 摘要 相 结 合 , 但 也 是 非常 有 意义 
的 改进 方向 。 


3 引文 句 分 类 

引文 句 分 类 旨 在 对 从 所 有 引文 域 中 摘 取 的 某 目 标 
文献 的 引文 句 (集合 ) 按 照 一 定 的 结构 (或 逻辑 ) 标 准 进 
行 组 织 整理 。 例 如 , 按照 研究 目的 、 研 究 方法 、 研 究 
缺陷 、 研 究 结 论 等 对 引文 句 进行 分 组 或 分 类 ,并 据 此 


T 


X3 Ic RI PETTSIZE BS Oi ae RID ERS, 保证 摘要 的 全 面 性 
和 简洁 性 ， 同 时 也 便于 按照 其 内 在 的 逻辑 顺序 加 以 组 
织 ， 以 保证 摘要 的 可 读 性 。 

早期 , 引文 句 分 类 主要 沿用 对 作者 引用 行为 或 引 
用 动机 方面 的 一 些 研究 成 果 及 人 研究 思路 ,包括 作者 对 
被 引文 献 的 评价 是 积极 或 消极 等 ,能 够 在 一 定 程度 上 
反映 施 引 文献 和 被 引文 献 之 间 的 关系 。 例如 , Nanba 等 
基于 1965 年 Garfield 对 作者 引用 行为 总 结 出 来 的 15 
种 类 型 , 将 引文 句 概 括 分 为 TypeB/C/O 三 种 类 型 I。 
这 类 研究 中 , 早期 的 研究 多 依托 特征 词 、 线 索 词 的 识 
别 ,最近 的 研究 更 多 地 引入 情感 分 析 技 术 。 
新 兴 的 文摘 结构 理论 研究 为 引文 句 分 类 提供 了 新 
的 可 能 。 这 类 理论 最 早 是 通过 对 学 术 文 献 摘要 句子 所 
属 的 文章 区 块 进行 研究 和 分 类 。 具 体 的 研究 工作 主要 
包括 : 研究 文档 本 身 或 文档 摘要 的 结构 ,为 自动 摘要 
提供 指导 ; 研究 在 某 种 文摘 结构 下 的 分 类 技术 与 分 类 
特征 。 其 中 , 前 项 研究 往往 是 后 项 研究 的 理论 基础 ， 以 
便 确 保 分 类 结果 能 够 使 引文 句 出 现在 摘要 的 合适 位 置 ， 
从 而 符合 读者 的 阅读 习惯 (逻辑 )。 


基于 文章 自然 分 段 进行 分 类 是 非常 直观 的 , 也 在 
许多 研究 当中 得 以 应 用 , 白光 祖 等 利用 朴素 贝 叶 斯 算 
法 , 在 小 样本 量 的 条 件 下 按照 学 术 文 章 的 分 段 名 称 进 
行 识别 , 取得 了 比较 好 的 效果 中 。 然 而 不 同文 献 的 自 
然 分 段 往往 不 同 , 这 导致 了 该 方案 的 天 然 缺 陷 。 由 此 ， 
一 些 新 的 分 类 理论 得 到 了 发 展 。Teufel 等 提出 了 非常 
严密 的 论述 结构 (Argument Zones, AZ)ISCSIUS 161. AZ 
理论 最 初 将 文章 中 句子 的 修辞 地 位 (Rhetorical Status) 
分 成 7 类 : 目标 、 结 构 、 作 者 自己 的 观点 、 背 景 、 对 
比 、 基 础 和 其 他 , 并 在 后 续 的 修正 版 本 AZ-I 中 进一步 
细 化 成 15 个 部 分 。 这 种 细 化 处 理 被 认为 更 加 富 含 信息 
量 ,并 且 对 不 同学 科 的 适应 能 力 更 强 09。 此 外 , 还 有 一 
种 比较 重要 的 理论 一 一 核心 科学 概念 (Core Scientific 
Concept, CoreSC) 结 构 理 论 " "其 分 类 比 AZ 理论 还 要 
更 加 细致 。 对 上 述 三 种 分 类 理论 (自然 分 段 、AZ 理论 、 
CoreSC) 的 比较 研究 发 现 ,利用 机 需 学 习 对 它们 提供 
的 类 目 进 行 摘要 句 分 类 的 效果 都 比较 可 靠 , 并 且 彼 此 
的 类 目 之 间 还 具有 潜在 的 联系 中 。 近 年 来 一 些 比较 重 
要 的 学 术 文 摘 结构 分 类 研究 如 表 1 所 示 : 


表 1 学 术 文 摘 结构 研究 的 相关 理论 


第 一 作者 /年 份 理论 名 称 模型 


特征 分 类 方式 


第 一 组 : 背景 


景 、 问 题 、 作 者 自 
Zone Classes 意义 、 其 他 ) 
B 2H: 关联 、 区 别 
和 三 组 : KA 


Mizuta/2006""°! 


观点 (方法 、 结 论 、 见 解 、 瞳 示 、 


己 的 


词语 、 主 要 动词 、 时 态 、 人 情态 、 
分 块 或 段落 、 句 子 、 引 用 、 划 
线 部 分 、 句 子 宾 语 


决策 树 


分 块 结构 、 段 落 结构 、 标 题 A 


Argument Zoni 未、 结构 、 已 的 观点 Se 
Teufel/ 2006! a S E A ma B FKE WAREK WA, RU 
mem diis 动词 时 态 、 动 词 情态 、 引 用 等 
^ H x 量 空 加 类 TT s 1E 见 
Ehrler'2005P 意图 、 方 法 、 结 果 、 结 论 距离 、 词 频 * 反 文档 频率 (tvia0 PEIPER, EN 


表达 式 匹 配 分 类 咒 


Hiroakata/2008U?! 


目标 、 方 法 、 结 果 、 结 论 、 两 个 
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人 工 标 引 员 人 工 标 引 员 


Contractor 等 将 AZ 理论 作为 引文 名 分 类 和 筛选 两 
个 步 又 的 特征 , 取得 了 比较 好 的 效果 中 ,总 体 而 言 ， 针 
对 文摘 结构 理论 的 研究 正在 逐渐 避免 主观 性 ， 而 更 多 
地 依赖 于 分 类 特征 的 选择 。 目 前 的 研究 更 加 重视 文摘 
结构 理论 在 不 同学 科 的 普 适 性 ， 而 这 也 依赖 于 更 加 具 


有 普 适 性 的 特征 选取 和 人 处理 技术 。 
4 引文 句 组 织 和 排序 


引文 句 组 织 和 排序 是 指 从 经 过 整理 的 候选 引文 名 
集合 中 筛选 出 内 容 表 达能 力 最 强 的 句子 ,并 按照 一 定 
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方法 对 其 进行 排序 , 从 而 生成 概括 性 强 、 逻 辑 连 贯 的 
引文 摘要 。 

目前 ， 引 文句 组 织 和 排序 的 主要 研究 工作 包括 : 

(1) 利用 一 定 的 相似 性 度量 方式 , 将 引文 句 进行 
限 类 。 聚 类 一 般 是 基于 引文 句 之 间 的 内 容 相 似 性 进行 
处 理 ， 以 剔除 表意 相似 的 句子 。 常 用 的 聚 类 方法 有 : 层 
W RK, 最 大 边缘 相似 度 (Maximum | Marginal 
Relevance, MMR) 及 其 变 体 , 一 种 常用 的 基准 算法 Pl 
MEAD’ "H Hie [t 4, 26, 28, 32-33 o 其 中 ， MEAD 是 一 个 
开放 的 免费 自动 摘要 研究 平台 ,提供 有 多 种 基本 的 摘 
要 算法 系统 , 并 经 向 在 评估 过 程 中 作为 基准 被 研究 人 
员 使 用 , 其 变 体 包括 MEAD-Centroid 、MEAD- 
LexRankP?, 5j), 该 系统 在 多 文档 摘要 中 也 有 非常 广 
泛 的 应 用 。 

此 外 ,由 于 引文 句 和 原文 之 间 、 引 文句 和 引文 句 
之 间 自 带 引 用 关系 , 能 够 形成 引用 网 络 ， 因 此 引文 句 
聚 类 又 格外 适用 图 模型 摘要 问题 (LIGS Problem), Shi 等 
对 大 规模 的 引文 网 络 图 进行 压缩 , 实现 了 对 人 研究 主题 
变迁 的 追踪 和 重要 性 揭示 局。 尽管 该 研究 不 是 一 个 典 
型 的 引文 摘要 问题 , 但 是 其 适用 的 图 模型 思想 、 可 视 
化 方法 和 算法 改进 却 对 引文 摘要 领域 有 借鉴 意义 。 

Q) 对 引文 句 的 重要 性 进行 打分 (加 权 )， 以 便 排 序 
输出 。 例 如 , Mei 等 通过 设计 一 种 基于 影响 力 的 打分 方 
案 ， 对 能 反映 文档 影响 的 引文 句 进行 排序 口 : 
Qazvinian 等 则 基于 对 引文 句 中 的 关键 词 提取 及 关键 
词 的 出 现 密度 和 重要 性 等 信息 ,对 引文 句 进行 排序 ， 
并 据 此 实现 引文 句 的 去 重 处 理 叶 。 目 前 完全 依赖 于 对 
引文 句 进 行 打 分 的 研究 正在 减少 ， 由 于 打分 一 般 依赖 
于 句子 中 语词 , 例如 特定 的 命名 实体 或 者 事实 的 出 现 
村 征 ， 那 么 难以 避免 地 ,无论 采取 何 种 方案 ,打分 高 
的 句子 往往 指向 的 对 象 或 者 表达 的 意思 相近 ,客观 上 
影响 了 摘要 句子 的 多 样 性 。 


5 摘要 后 处 理 和 评估 


5.1 摘要 后 处 理 

摘要 后 处 理 是 指 在 得 到 摘要 初稿 的 基础 上 ， 对 已 
选 定 的 引文 句 进行 检查 , 包括 是 否 存在 元 余 ,一 些 重点 
词语 的 使 用 上 是 否 存在 指 代 不 明 、 不 连贯 等 问题 。 近 年 
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来 , 研究 人 员 对 摘要 结果 的 后 处 理 问题 愈加 关注 。 
目前 ， 摘 要 后 处 理 致力 于 解决 两 方面 的 问题 ; 

(1) 去 重 。 引 文句 表意 重复 的 一 种 简单 情形 是 语 
义 重复 ， 即 句子 对 中 使 用 的 词语 基本 相同 , 意思 表达 
也 基本 一 致 。 此 时 去 重 操作 比较 简单 , 通过 基于 词 级 
别 的 相似 度 计算 (比较 ) 就 可 以 解决 。 而 且 一 般 而 言 , 如 
果 有 相应 的 引文 分 类 手段 的 话 , 往往 也 不 会 存在 句子 
相似 度 极 高 的 状况 。 而 对 于 比较 复杂 的 引文 句 表意 重 
复 问 题 ,去 重 的 难度 就 比较 大 。 例 如 ,两 个 引文 句 都 引 
用 了 一 篇 有 关 “ 信 息 检 索 ” 的 文章 , 但 引文 句 一 使 用 的 
iH] 是 “search engine resulf”， 而 引文 句 二 使 用 
"information retrieval”， 其 用 词 完 全 不 同 , 但 却 表 达 了 
接近 的 语义 , 往往 不 能 通过 简单 的 相似 度 比 较 来 发 现 ， 
通常 需要 相关 知识 库 的 配合 使 用 才能 解决 。 

Q) ERENS, 一般 而 言 ,引文 句 在 格式 上 与 正 
文 文本 是 有 所 区 别 的 。 另 外 , 引文 句 通常 来 自 于 不 同 
的 施 引 文献 ， 表达 习惯 上 也 往往 存在 较 大 的 差异 ， 因 
JE, 相 比 基于 正文 的 自动 摘要 ,引文 摘要 方法 得 到 的 
文摘 的 可 读 性 和 连贯 性 都 会 比较 差 。 对 此 , 采用 的 主 
要 解决 办 法 是 : 通过 分 析 引 文摘 要 结构 和 人 工 摘要 的 
用 词 特点 , 插入 、 替 换 适 当 的 代词 、 连 词 等 ,以 利于 摘 
要 连贯 性 的 提升 29。 

5.2 ”摘要 评估 

摘要 评估 主要 是 指针 对 摘要 的 概括 性 、 连 贯 性 、 
准确 性 、 语 法 正确 性 、 可 读 性 等 方面 的 定性 与 定量 评 
判 。 传 统 的 自动 摘要 评估 一 般 采 用 Recall-Precision 和 
F-measure 方法 , 用 以 度量 原文 中 被 指定 的 模板 单元 
被 摘要 所 覆盖 的 全 面 性 和 准确 性 。 另 一 个 得 到 广泛 应 
用 的 评估 方案 是 ROUGE", 它 主要 基于 n 元 语 
(n-gram) 模 型 的 召回 率 计 算 , 其 变 体 还 有 ROUGE-P、 
ROUGE-S、ROUGE-L 等 B91。 

截止 目前 ， 几 乎 没有 专门 针对 引文 摘要 的 评 佑 方 
案 。 因 此 , ROUGE 和 Precision-Recall 仍然 得 到 了 广泛 
使 用 。 然 而 , 这 两 种 方案 并 不 能 完全 适应 引文 摘要 的 
评估 要 求 。 引 文 的 用 词 有 可 能 与 原文 有 一 定 的 偏差 ， 
难以 判断 其 覆盖 能 力 和 准确 性 ; 由 于 来 自 于 多 个 文档 
中 的 引文 句 之 间 彼 此 独立 ， 相 对 于 一 般 的 自动 摘要 而 
言 ， 引 文摘 要 的 引文 句 之 间 可 能 会 存在 更 多 的 语义 宛 
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R, 这 种 情况 下 ,摘要 可 读 性 的 降低 难以 避免 ,但 现 
有 评估 方案 却 无 法 测量 出 来 。 
很 多 引文 摘要 的 评估 工作 都 基于 人 工 参 与 方式 进 


ChinaXiv 合 作 期 刊 


总 第 270 期 20164 第 5 期 


(2) 缺乏 有 针对 性 的 评估 方案 。 传 统 的 自动 摘要 
评估 方案 不 能 直接 反映 引文 摘要 的 质量 , 同时 一 些 最 
新 的 有 关连 贯 性 和 可 读 性 的 评估 研究 缺乏 得 到 广泛 认 


行 。 例 如 , 使 用 与 人 工 生 成 的 高 质量 摘要 进行 相似 度 
比较 来 评估 , 或 者 邀请 领域 内 专家 对 生成 的 引文 摘要 
打分 。 与 之 相近 的 还 有 问答 方法 54 即 由 专业 人 士 阅 
读 摘 要 内 容 , 然后 回答 有 关 原 文 的 问题 来 评测 摘要 内 
容 是 否 抓 住 了 原文 的 重点 。 这 些 方案 在 人 力 上 耗费 都 
较 大 , 同时 也 难以 避免 人 工 处 理 的 主观 性 。 在 一 项 近 
期 研究 中 ，Christensen 等 使 用 纯 人 工 评估 方法 , 通过 
邀请 专业 的 评估 人 员 直 接 对 其 自动 生成 的 引文 摘要 与 
基准 摘要 进行 “ 育 评 9， 对 摘要 连贯 性 的 评估 进行 重 
点 探讨 。 

此 外 ,引文 摘要 评估 还 见 到 使 用 金字 塔 评分 (Pyramid 
Score) HJ 75 1,091, 这 里 , 金字 塔 评分 是 指 对 引文 摘要 标 
记 出 的 “事实 "(Fact) 进 行 评分 , 并 对 标记 出 较 多 事实 的 
摘要 赋 一 个 比较 高 的 分 数 。 这 种 评估 方案 将 评估 对 象 
降低 到 语词 层级 ， 更 加 强调 文摘 中 对 “事实 ?或 者 “命名 
实体 ”的 提取 , 具有 一 定 的 参考 价值 , 但 仍然 存在 无 法 
评价 文摘 可 读 性 、 连 贯 性 和 简洁 性 的 问题 。 


6 结 语 


引文 摘要 问题 的 提出 及 相关 研究 工作 的 开展 至 今 
不 足 10 年 的 历史 。 本文 基 于 内 容 要 素 , 从 引文 摘要 的 
关键 步骤 和 人手, 对 这 一 新 兴 领 域 的 国外 研究 进展 进行 
了 较为 全 面 的 文献 调研 和 论述 分 析 。 从 早期 对 引文 句 
功能 、 作 用 的 定性 讨论 ， 到 对 引文 句 内 容 、 观 点 及 倾 
向 性 的 深入 分 析 ，, 再 到 基于 引文 句 ( 集 合 ) 进 行 自动 摘 
要 的 生成 及 评估 ; 从 单 文档 摘要 到 多 文档 摘要 ， 再 到 
自动 生成 基于 更 大 规模 文档 的 文献 综述 , 引文 摘要 领 
域 的 研究 工作 正在 渐 趋 成 熟 和 深化 。 

然而 ,作为 一 个 新 兴 的 研究 课题 , 引文 摘要 研究 
还 存在 许多 不 足 , 同时 也 面临 着 不 少 困 难 , 具体 表现 
如 下 : 

(1) 适用 的 全 文 语料库 的 缺乏 。 目 前 , 除 PubMed 
外 , 其 他 学 科 基 于 XML 标记 的 结构 化 全 文 语 料 还 比 
较 少见 ， 而 由 于 OCR 技术 的 识别 能 力 还 不 完美 , 据 此 
得 到 的 全 文 文本 的 噪声 还 比较 大 MM， 因 此 ,开展 引文 
摘要 研究 在 很 多 情况 下 还 要 依赖 人 工 方 式 对 全 文 数据 
进行 预 处 理 , 这 大 大 影响 了 研究 工作 的 效率 。 


可 的 理论 支撑 。 此 外 ,评估 方案 过 度 依赖 人 为 打分 , 也 
导致 评估 工作 无 法 大 规模 展开 。 

(3) 受 引 文句 数量 、 文 献 所 属 学 科 等 因素 的 影响 ， 
引文 摘要 的 长 度 (篇 幅 ) 差 异性 很 大 , 也 缺乏 伸缩 性 。 还 
少 有 研究 对 引文 摘要 合适 的 长 度 进行 讨论 。 

(4) 引文 摘要 方法 无 法 适用 于 在 学 术 文献 中 占 多 
数 的 低 被 引文 献 。 

需要 说 明 的 是 , 本 文 的 综述 分 析 重 点 围绕 单 文档 
引文 摘要 而 展开 。 近 年 来 ,在 单 文档 引文 摘要 研究 的 
基础 上 ,多 文档 引文 摘要 以 及 文献 综述 的 自动 生成 也 
得 到 了 学 者 的 积极 关注 。 由 于 后 两 种 摘要 的 生成 难度 
明显 高 于 单 文档 摘要 , 特别 是 在 引文 句 分 类 、 引 文句 
聚 类 、 引 文句 语义 去 重 及 排序 等 方面 ,技术 难度 及 挑 
战 性 更 高 ~。 因此 , 在 未 来 的 研究 中 ,如 何 对 引文 名 
这 类 语 料 进 行 更 为 深入 的 语义 理解 和 情感 分 析 ， 如 何 
基于 引文 名 的 指示 与 关联 作用 在 单 、 多 文档 摘要 之 间 
形成 联动 关系 ,以 及 如 何 与 基于 正文 的 自动 摘要 技术 
相互 融合 , 都 将 成 为 引文 摘要 研究 下 一 步 的 努力 方向 。 
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Abstract: [Objective] This paper is an in-depth review of popular research methodologies adopted by the 
Citation-Based Summarization (CBS) studies. [Coverage] We retrieved scholarly papers on CBS published since 2007, 
as well as earlier research on automatic summarization and citation analysis. [Methods] We thoroughly discussed the 
basic concepts and natural language processing technology in the field of CBS. [Results] Citances plays more important 
roles in automatic summarization applications than randomly selected sentences from scientific works. [Limitations] 
We did not compare the current achievements with possible results under the ideal circumstances. [Conclusions] CBS 
technology expands the scope of traditional informetrics and automatic summarization studies. It also offers suggestion 
to improve the existing evaluation methods of automatic summarization services. CBS calls for the expansion of 
citation windows and new experimental corpus. We have addressed these issues and explored new perspectives for the 
CBS research. 
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ProQuest 正在 对 专门 从 事 亚洲 研究 , 或 是 对 于 建立 中 文 馆 藏 资料 库 感 兴趣 的 图 书馆 提供 支持 ,并且 这 些 资 源 都 可 供用 户 
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